01

Introduzione al Machine Learning

Dal Corso di Andrew Ng (4 billions)

Arthur Samuel (1959)

Machine Learning : Field of study that gives computers the ability to learn without being explicitily programmed

Tom Mitchell (1998)

Well-posed Learning Problem: A computer program is said to learn from experience E with respect to some task T and some **performance measure P, if its performance on T, as measured by P, improves with experience E.

Dal Corso di Andrew Ng (AI4All)








Data Science puรฒ visualizzare il passato il Machine Learning puรฒ predire il futuro

Per Andrew Ng il lavoro del Data Scientist deve essere aumentato dal Machine Learning



Tutto quello che puoi fare istintivamente puรฒ essere realizzato in AI (in DeepLearning) questo in neuroscienze viene chiamato Sistema 1 il sistema veloce

nei prossimi anni passeremo al Sistema 2 l'integrazione del sistema veloce al planning
un ingrediente essenziale per l'AGI.


Iniziamo il corso di Mueller

Il corso insegnerร  a fare Machine Learning usando Python, ScikitLearn e TensorFlow
la parte di Deep Learning sarร  volutamente solo accennata lasciando a corsi futuri
approfondimenti e l'uso di PyTorch.



Beware! Le serie storiche non seguono questo paradigma! Nel tempo le regole cambiano: DATA SHIFT / MODEL SHIFT.
La tecnica principe per avere dati i.i.d. รจ la randomizzazione, la quale potrebbe distruggere informazione






Vedete il film su AlphaGo, su Netflix o Youtube https://www.youtube.com/watch?v=WXuK6gekU1Y



Un altro modo di dividere Supervised, Unsupervised e Reinforcement Learning รจ che nel Supervised le etichette vengono date insieme ai dati... nell'unsupervised non vengono dare... nel reinforcement vengono date episodicamente

L'apprendimento degli esseri umani รจ Unsupervised ed RL


una famosa frase di LeCun che tutti condividono

Unsupervised รจ Gpt-2, Gpt-3 successi indiscussi degli ultimi anni
Qual รจ il motivo?

Unsupervised o SemiSupervised apprende caratteristiche non specificate dall'essere umano e ha una maggiore capacitร  di generalizzazione, TRANSFER LEARNING, usare meno esempi essere piรน resistente agli errori e cosรฌ via...
Un lavoro notevole in Semisupervised Learning puรฒ essere il completamento di un'immagine a cui รจ stata rimossa una porzione. In questa classe sono le GAN, i VAE e tanta altra roba.


In che limite possiamo veder convergere i due approcci? Se le classi sono ordinate, ad esempio il "livello di malattia" (ranking), i due approcci dovrebbero convergere eppure la classificazione non ha rapporti di ordine la regressione si.



Principi Guida in Machine Learning

Trova il tuo obiettivo

Kaggle ti vizia perchรฉ ti da obiettivi giร  fatti
Nel mondo reale sei tu che devi fissare gli obiettivi e capire la tecnica da utilizzare se supervisionato o non supervisionato ecc.

Data First... but Machine Learning First or not?

Creare una gerarchia di modelli di confidenza crescente... Prima Baseline poi modelli semplici poi via via piรน complicati...
un modello piรน complicato รจ spesso piรน difficile da gestire o piรน fragile.
A parte Garbage in garbage out non puoi certo chiedere a un modello di Machine Learning di estrapolare fuori dai dati (o si?)

Pensa NEL Contesto. Qual รจ il baseline? Qual รจ il beneficio?

Qual รจ il baseline e quale beneficio hai a complicarlo?
Un negozio che vuole chiudere ti chiede di fare ML della campagna email di promozione per i saldi di chiusura ottimizzando le risposte positive.
Hai bisogno di dati in merito quali usi?
Qual รจ il beneficio?

Sostituti Buoni e Cattivi

Inoltre fissare un obiettivo vuol anche dire capire qual รจ la Loss Function da minimizzare e le Metriche con cui considerare la bontร  del tuo lavoro dopo aver addestrato il modello.
Ricorda il paradosso della centralinista: minimizzare su una metrica รจ sbagliato

Comunicare i Risultati

E' importante saper spiegare perchรฉ il tuo metodo funziona e come funziona. Sia per gli stakeholder (i clienti finali), che per motivi legali ed etici


Inoltre


รจ dimostrato che spiegare il motivo della raccomandazione aumenta i click


Etica
https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing

Se addestri un sistema di ML dovresti sapere se e come ha "bias" e se la sua applicazione รจ etica. E non parlo semplicemente di promuovere la FAIRNESS nei processi di decisione, che non ci sia un discriminazione in base alla razza o al sesso (che potrebbero essere proxy di problemi finanziari ad esempio).
Facciamo l'esempio reale di due scuole e della previsione degli studenti a rischio di essere bocciati. Una ha usato questa informazione per bocciarli e d alzare la media degli altri. L'altra scuola per istituire appositi corsi di sostegno per quelli a rischio.
Stessa cosa per il sistema "cinese" di controllo facciale. Usato per tracciare i buoni cittadini VS per ostacolare la diffusione del covid. L'algoritmo puรฒ essere lo stesso ma i risultati ben differenti.

Dati e raccolta dati

Chiaramente il costo dei dati รจ una variabile molto sensibile nella costruzione di modelli. Senza Dati non si puรฒ avere un modello di ML.
Diciamo che avete un dataset come datascientist una domanda molto importante a cui rispondere รจ dovrei raccogliere altri dati?
Qual รจ il vantaggio economico nel raccogliere altri dati di quanto altri dati influenzerebbero la performance dell'algoritmo nel suo obbiettivo? Qual รจ il costo margina e il beneficio marginale di altri dati?
All'inizio della pandemia una gara Kaggle sulla previsione della diffusione del Covid-19 un partecipante con un semplice Random Forest passรฒ dalla duecentesima posizione alla quinta semplicemente aggiungendo un dato non fornito: la popolazione delle nazioni. Ma non sempre i dati sono gratuiti



Google usava i captchas per fare OCR e leggere i numeri delle case per addestrare i modelli di ML


Il costo dei dati rispetto alla RAM (no 512Gb non bastano)

Il problema รจ il runtime. Lavora con subset che entrano in RAM.

Il costo ambientale

Timnit Gebru out of Google
https://www.technologyreview.com/2020/12/04/1013294/google-ai-ethics-research-paper-forced-out-timnit-gebru/